Aprendizaje por diferencias temporales

El aprendizaje por diferencias temporales (DT) se refiere a una clase de métodos de aprendizaje por refuerzo sin modelos que aprenden por bootstrapping a partir de la estimación actual de la función de valor. Estos métodos toman muestras del entorno, como los métodos de Monte Carlo, y realizan actualizaciones basadas en las estimaciones actuales, como los métodos de programación dinámica.[1]

Mientras que los métodos Monte Carlo sólo ajustan sus estimaciones una vez que se conoce el resultado final, los métodos TD ajustan las predicciones para que coincidan con predicciones posteriores más precisas sobre el futuro antes de que se conozca el resultado final.[2]​ Se trata de una forma de bootstrapping, como se ilustra con el siguiente ejemplo:

Supongamos que desea predecir el tiempo que hará el sábado, y dispone de algún modelo que predice el tiempo del sábado, dado el tiempo de cada día de la semana. En el caso normal, esperaría hasta el sábado y entonces ajustaría todos sus modelos. Sin embargo, cuando es, por ejemplo, viernes, debería tener una idea bastante aproximada del tiempo que hará el sábado y, por lo tanto, podría cambiar, por ejemplo, el modelo del sábado antes de que llegue el sábado.[2]

Los métodos de diferencia temporal están relacionados con el modelo de diferencia temporal del aprendizaje animal.[3][4][5][6][7]

  1. «Temporal difference learning». Wikipedia (en inglés): 133. 2018. 
  2. a b Sutton, Richard S. (1 de agosto de 1988). «Learning to predict by the methods of temporal differences». Machine Learning (en inglés) 3 (1): 9-44. ISSN 1573-0565. doi:10.1007/BF00115009. Consultado el 15 de febrero de 2024. 
  3. Schultz, W, Dayan, P & Montague, PR. (1997). «"A neural substrate of prediction and reward"». Science. PMID 9054347. doi:10.1126/science.275.5306.1593. 
  4. Montague, P. R.; Dayan, P.; Sejnowski, T. J. (1996). «A framework for mesencephalic dopamine systems based on predictive Hebbian learning». The Journal of Neuroscience. PMID 8774460. doi:10.1523/JNEUROSCI.16-05-01936.1996. 
  5. Montague, P.R.; Dayan, P.; Nowlan, S.J.; Pouget, A.; Sejnowski, T.J. (1993). «"Using aperiodic reinforcement for directed self-organization"». Advances in Neural Information Processing Systems. 
  6. Montague, P. R.; Sejnowski, T. J. (1994). «"The predictive brain: temporal coincidence and temporal order in synaptic learning mechanisms"». Learning & Memory. PMID 10467583. doi:10.1101/lm.1.1.1. 
  7. Montague, P. R.; Sejnowski, T. J. (1 de mayo de 1994). «The predictive brain: temporal coincidence and temporal order in synaptic learning mechanisms.». Learning & Memory (en inglés) 1 (1): 1-33. ISSN 1072-0502. PMID 10467583. doi:10.1101/lm.1.1.1. Consultado el 15 de febrero de 2024. 

© MMXXIII Rich X Search. We shall prevail. All rights reserved. Rich X Search